当SparkSQL遇上Alluxio

前言

Alluxio官方文档介绍了Hive的配置方法,也介绍了Spark的配置方法,重点介绍了Spark程序如何访问Alluxio上的文件,但是没有介绍如何配置SparkSQL(这里指纯SQL方式,不是DataFrame编程),笔者仿照Hive的方式配置SparkSQL,但数据始终无法落到内存上(load、insert都不行)。

本文重点介绍如何为SparkSQL配置Alluxio,为SparkSQL插上飞翔的翅膀。

本文的环境:
Hadoop-2.7.1
Hive-1.2
Spark-2.1.1(刚刚发布的2.2对SparkSQL又做了大量优化(如CBO等)
Alluxio-1.4

启动Alluxio的用户

Alluxio默认支持文件系统用户和权限检查。为了确保HDFS中包括用户,组和模式的文件/目录的权限信息与Alluxio一致,启动Alluxio master和worker进程的用户要求是以下任一情况:

  • HDFS超级用户。即,使用启动HDFS namenode进程的同一用户也启动Alluxio master和worker进程。
  • HDFS超级用户组的成员。编辑HDFS配置文件hdfs-site.xml并检查配置属性dfs.permissions.superusergroup的值。如果使用组(例如,“hdfs”)设置此属性,则将用户添加到此组(“hdfs”)以启动Alluxio进程(例如,“alluxio”);如果未设置此属性,请将一个组添加到此属性,其中Alluxio运行用户是此新添加组的成员。

注意,上面设置的用户只是用于启动Alluxio master和worker进程。一旦Alluxio服务器启动,就不必使用此用户运行Alluxio客户端应用程序。

如果Hadoop的超级用户是hdfs,而启动Alluxio的用户是root,那么你会遇到各种权限相关的异常。
解决方法:将现在启动alluxio进程root用户加入hdfs用户组中。
usermod -a -G hdfs root(注意记得加-a,否则root会从原来的组移除)

从Hive开始

Hive在Hadoop&Spark生态中已经是不成文的事实标准,大部分主流的SQL on Hadoop引擎都会或多或少的依赖Hive或可与Hive共享存储仓库和元数据库,如SparkSQL、Impala、Presto、HAWQ、Drill等等。

配置Hadoop

配置Hive之前需要配置Hadoop(前提是Hive的执行引擎是MR)
将以下三个属性添加到Hadoop的安装目录下的conf目录中的core-site.xml文件中:

<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</description>
</property>
<property>
  <name>fs.alluxio-ft.impl</name>
  <value>alluxio.hadoop.FaultTolerantFileSystem</value>
</property>
<property>
  <name>fs.AbstractFileSystem.alluxio.impl</name>
  <value>alluxio.hadoop.AlluxioFileSystem</value>
</description>
</property>

该配置使MapReduce识别Alluxio的URI(如alluxio:// )

其次, 在conf目录中hadoop-env.sh文件中修改$HADOOP_CLASSPATH:

export HADOOP_CLASSPATH=${HADOOP_CLASSPATH}::/opt/alluxio/alluxio-1.4.0/core/client/target/alluxio-core-client-1.4.0-jar-with-dependencies.jar

分发alluxio-core-client-1.4.0-jar-with-dependencies.jar,有多种方式,可以在跑MR程序时用-libjars指定,也可以放到alluxio每个节点的置于每个MapReduce节点的$HADOOP_HOME/lib(由于版本不同也可能是$HADOOP_HOME/share/hadoop/common/lib),如果您使用的Hadoop做了些优化,将一些jar包提前放到了HDFS上,那么需要将该jar包放到hdfs上。笔者重新打包了mapreduced.tar.gz,并上传至hdfs的/hdp/apps/2.3.4.0-3485/mapreduce/目录下

配置Hive

参考官方文档配置Hive

添加以下配置项到你的Hive安装目下的conf目录里的hive-site.xml中:

<property>
   <name>fs.defaultFS</name>
   <value>alluxio://node1:19998</value>
</property>

使用Hive过程中遇到的异常:

Could not setMode for UFS file hdfs://node1.hde.h3c.com:8020/tmp . Aborting the setAttribute operation in Alluxio.

原因是Hive找不到alluxio的jar包,笔者更新了HDFS上Hive的jar包(/hdp/apps/2.3.4.0-3485/hive/hive.tar.gz),将alluxio-core-client-1.4.0-jar-with-dependencies.jar打到了这个tar包中

在Hive中见表,并插入一条数据(insert语句),测试发现数据缓存到了Alluxio,如下图所示:

数据在内存中

SparkSQL相遇

启动spark-sql命令行,执行insert向刚才hive中创建的表插入一条数据:


sparksql中向hive创建的表插入数据

发现在SparkSQL中插入的一条数据也存在了内存中,如下图所示:

sparksql向hive中建的表插入数据,存入内存

在SparkSQL中创建一张新表,并插入数据

建表并插入数据

查看Alluxio向的缓存情况,如下图所示,数据全部落到HDFS上,并未存到内存中。

未存到内存中

总结一下:

  • Hive配置Alluxio成功后,在Hive中建表并插入数据,可存入Alluxio内存,在SparkSQL中向这个表插入数据,也能缓存到内存。
  • 在SparkSQL中建表并插入数据,不能缓存到Alluxio的内存中。

如何能SparkSQL建表并插入的数据缓存到Alluxio的内存中呢?

经研究发现配置Hive时,修改的fs.defaultFS配置针对Hive是起作用的,但是SparkSQL并不解析这个配置,所以就算在spark-home/conf/hive-site.xml加上这个配置也不会起作用。

幸好,Hive提供了修改元数据属性的工具metatool,我们可以通过此工具修改fs的类型:

-listFSRoot                           print the current FS root locations
-updateLocation <new-loc> <old-loc>   Update FS root location in the
                                       metastore to new location.Both
                                       new-loc and old-loc should be valid
                                       URIs with valid host names and
                                       schemes.When run with the dryRun
                                       option changes are displayed but
                                       are not persisted. When run with
                                       the serdepropKey/tablePropKey
                                       option updateLocation looks for the
                                       serde-prop-key/table-prop-key that
                                       is specified and updates its value
                                       if found.

修改过程如下所示,通过此命令将hive的warehouse从hdfs上修改到了alluxio上。

[root@node2 hive]# bin/metatool -listFSRoot
hdfs://node1.hde.h3c.com:8020/apps/hive/warehouse/hmr.db
hdfs://node1.hde.h3c.com:8020/apps/hive/warehouse
[root@node2 hive]# bin/metatool --updateLocation alluxio://node1:19998 hdfs://node1.hde.h3c.com:8020
Updated 12 records in SDS table
[root@node2 hive]# bin/metatool -listFSRoot
alluxio://node1:19998/apps/hive/warehouse/hmr.db
alluxio://node1:19998/apps/hive/warehouse

测试是否管用,新建一张表并插入数据:

spark-sql> create table test_sparksql2(id int, name string);
Time taken: 1.023 seconds
spark-sql> insert into test_sparksql2 values(1, 'aa');
Time taken: 2.294 seconds
spark-sql> select * from test_sparksql2;
1   aa
Time taken: 0.821 seconds, Fetched 1 row(s)

查看Alluxio的缓存情况,如下图所示,数据全部缓存到内存中。

数据缓存到内存
  • 我们使用SparkSQL建表,insert/load操作都能缓存到内存中。通过配置Alluxio的存储策略,大数据量的表我们也无需关心内存是否足够。如果内存足够大,SparkSQL的性能必将几何级提升。
  • 不同于SparkSQL提供的cache table语句,Alluxio的方式存放数据不会随着启动SparkSQL的进程(或JDBC)的退出而消失,这对于不同进程间的数据共享,意义无疑是巨大的。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容